Big Data and Analytics Spurious Correlation এবং তার প্রভাব গাইড ও নোট

409

Spurious correlation (মিথ্যা সহমত) হল দুটি ভিন্ন ভেরিয়েবলের মধ্যে একটি সম্পর্ক বা সহমতির উপস্থিতি, যা প্রকৃতপক্ষে বাস্তবে কোনো সম্পর্কের প্রতিনিধিত্ব করে না। এটি সাধারণত ঘটতে পারে যখন দুটি ভেরিয়েবল একে অপরের সাথে সম্পর্কিত মনে হয়, কিন্তু তাদের মধ্যে কোনো বাস্তব কারণ-ফল সম্পর্ক নেই। এই ধরনের সম্পর্কগুলো অদৃশ্যভাবে অন্য কোনো তৃতীয় কারণে ঘটে যা মূল ভেরিয়েবলগুলোকে প্রভাবিত করছে, তবে এটি সরাসরি কোন কারণ-ফল সম্পর্ক প্রতিনিধিত্ব করে না।


Spurious Correlation এর উদাহরণ:

  1. Ice Cream Sales and Drowning Rates: একটি গবেষণায় দেখা যেতে পারে যে গরমকালে আইসক্রিম বিক্রির হার এবং ডুবে মৃত্যুর হার (drowning rates) একে অপরের সাথে সম্পর্কিত। তবে, এই দুটি ভেরিয়েবলের মধ্যে মিথ্যা সহমত রয়েছে। এখানে প্রকৃত কারণ হল গরম আবহাওয়া, যা আইসক্রিম বিক্রি বাড়ানোর পাশাপাশি লোকদের পানিতে সাঁতার কাটানোর প্রবণতাও বাড়ায়।
  2. Number of Movies and Shoe Size: একটি সেকেন্ডারি গবেষণায় হয়তো দেখা যাবে যে বড় shoe size এর মানুষের মধ্যে সিনেমা দেখার প্রবণতা বেশি। তবে এটি স্পষ্টতই একটি মিথ্যা সহমত কারণ এটি তাদের বয়সের সাথে সম্পর্কিত হতে পারে, যেখানে বড় shoe size সাধারণত বাচ্চাদের থাকে এবং বাচ্চারা বেশি সিনেমা দেখতে পছন্দ করে।

Spurious Correlation এর কারণ:

  1. তৃতীয় ভেরিয়েবল (Third Variable): Spurious correlation ঘটে যখন দুটি ভেরিয়েবল আসলে একে অপরের সাথে সম্পর্কিত নয়, তবে তাদের সম্পর্ক তৃতীয় কোনো ভেরিয়েবলের কারণে হয়ে থাকে। উদাহরণস্বরূপ, গরম আবহাওয়া বা সপ্তাহের দিন ইত্যাদি।
  2. Data Mining বা Overfitting: কখনো কখনো গবেষক বা ডেটা বিশ্লেষক ভুলভাবে ডেটাতে একটি সম্পর্ক বের করে ফেলেন যা আসলে কোনো প্রকৃত সম্পর্ক নয়। এমনটা হতে পারে যখন বৃহৎ ডেটাসেট থেকে অতিরিক্ত সম্পর্ক খুঁজে বের করা হয়।
  3. Coincidental Relationships: কিছু ক্ষেত্রেই দুটি ভেরিয়েবলের মধ্যে মিথ্যা সহমত ঘটে শুধুমাত্র কাকতালীয়ভাবে। যেমন, দৈনিক সেলস এবং সূর্যাস্তের সময়ের মধ্যে সম্পর্ক দেখা যেতে পারে, কিন্তু তা শুধুমাত্র একটি কাকতালীয় ঘটনা।

Spurious Correlation এর প্রভাব:

  1. ভুল সিদ্ধান্তগ্রহণ (Misleading Conclusions): মিথ্যা সহমতের কারণে আমরা ভুল সিদ্ধান্ত নিতে পারি। উদাহরণস্বরূপ, যদি আমরা মনে করি যে আইসক্রিম বিক্রি এবং ডুবে মৃত্যুর মধ্যে সম্পর্ক রয়েছে এবং ভুলভাবে দুটি ভেরিয়েবলের মধ্যে একে অপরকে প্রভাবিত করা হচ্ছে, তবে আমরা গুরুত্বপূর্ণ প্রিভেন্টিভ পদক্ষেপ (যেমন গরমের সময় সাঁতার কাটার সময় সতর্কতা) ভুলভাবে অগ্রাহ্য করতে পারি।
  2. অপ্রয়োজনীয় বা ক্ষতিকারক নীতি প্রণয়ন (Unnecessary or Harmful Policy Making): মিথ্যা সহমতের উপর ভিত্তি করে যদি কোনো নীতি প্রণীত হয়, তাহলে তা সমাজের জন্য ক্ষতিকর হতে পারে। যেমন, যদি একটি গবেষণা দেখায় যে সেলফি তোলা এবং ট্র্যাফিক দুর্ঘটনার মধ্যে একটি সহমত রয়েছে, এবং তার উপর ভিত্তি করে সেলফি তোলার উপর নিষেধাজ্ঞা আরোপ করা হয়, তবে তা সমস্যা সৃষ্টি করতে পারে। কারণ, এটি সঠিক কারণ চিহ্নিত না করে শুধু একটি সম্পর্ককে ভিত্তি হিসেবে নেয়।
  3. গবেষণার অবিচ্ছিন্নতা কমে যাওয়া (Decreased Research Integrity): মিথ্যা সহমতের কারণে গবেষণার বিশ্বস্ততা এবং সততা প্রশ্নবিদ্ধ হতে পারে। যদি একে অপরের সাথে সম্পর্কিত যে সমস্ত ভেরিয়েবলগুলির মধ্যে সত্যিকারের সম্পর্ক না থাকে, তবে ভবিষ্যতে গবেষকরা সেই সম্পর্কগুলির উপর ভিত্তি করে ভুল বা ত্রুটিপূর্ণ তত্ত্ব তৈরি করতে পারেন।
  4. অন্য গবেষণার ব্যাঘাত (Interruption of Other Research): মিথ্যা সহমতের কারণে যদি প্রকৃত সম্পর্ক চিহ্নিত না হয়, তাহলে অন্য গবেষণাগুলি সঠিক দিকনির্দেশনা না পেয়ে বাধাগ্রস্ত হতে পারে, এবং তারা ভুল তত্ত্ব বা পদক্ষেপ অনুসরণ করতে পারে।

Spurious Correlation থেকে রক্ষা পাওয়ার উপায়:

  1. কথা বলার সাথে সাবধানতা: সবসময় গবেষণার ফলাফলে সতর্ক থাকা উচিত, এবং যখন দুটি ভেরিয়েবল একে অপরের সাথে সম্পর্কিত হয় তখন তার বাস্তব কারণ-ফল সম্পর্ক বোঝার চেষ্টা করতে হবে।
  2. তৃতীয় ভেরিয়েবলের গুরুত্ব: সম্পর্কের কারণ-ফল নির্ধারণের জন্য তৃতীয় ভেরিয়েবল বা confounding factors চিহ্নিত করা অত্যন্ত গুরুত্বপূর্ণ। গবেষণার সময় এই ভেরিয়েবলগুলো প্রভাবিত করতে পারে কিনা, তা বিশ্লেষণ করা উচিত।
  3. ডেটা সেট পরীক্ষা ও নিশ্চিতকরণ: ডেটা বিশ্লেষণের জন্য ডেটা সেটের যথার্থতা নিশ্চিত করা উচিত এবং এটি পরীক্ষা করতে হবে যে সম্পর্কটি আসলেই অর্থপূর্ণ এবং কাকতালীয় নয়।
  4. স্ট্যাটিস্টিক্যাল মডেলিং: উচ্চতর স্ট্যাটিস্টিক্যাল মডেল ব্যবহার করা, যেমন মাল্টিভ্যারিয়েট রিগ্রেশন, যা একাধিক ভেরিয়েবলকে অন্তর্ভুক্ত করে এবং সম্পর্কগুলি আরও নির্ভুলভাবে চিহ্নিত করতে সাহায্য করতে পারে।

সারাংশ

Spurious correlation হল দুটি ভেরিয়েবলের মধ্যে সম্পর্ক থাকা, যা প্রকৃতপক্ষে কোন বাস্তব সম্পর্ক প্রতিনিধিত্ব করে না। এটি সাধারণত তৃতীয় ভেরিয়েবল বা কাকতালীয় ঘটনার কারণে ঘটে। মিথ্যা সহমত ভুল সিদ্ধান্ত গ্রহণ, অপ্রয়োজনীয় নীতি প্রণয়ন, এবং গবেষণার সততার ক্ষতি করতে পারে। তাই, গবেষকরা সবসময় সতর্কভাবে সম্পর্ক বিশ্লেষণ করতে এবং তৃতীয় ভেরিয়েবল বা confounding factors চিন্হিত করতে প্রস্তুত থাকতে হবে।

Content added By
Promotion

Are you sure to start over?

Loading...